查看原文
其他

基因组研究相关名词解释(一)——常见词汇

红皇后学术 红皇后学术 2022-06-07

测序过程相关名词

接头 (Adaptor):特定的一段DNA序列,在构建测序文库时连接在片段化的DNA末端,与测序槽中固定的接头序列匹配,从而固定待测序列在测序槽中的位置。

测序读长:不同的测序平台所能获得目的序列的长度各不相同,当待测序列的长度超过测序仪的最大读长时,得到的结果准确性会大幅降低。

测序文库:高通量测序技术具有测序读长的限制,因此在进行测序之前,需要将提取得到的样品DNA打断成为符合测序仪器读长的小片段,经过片段长度筛选、添加接头和定量,即构成了能够用于高通量测序的DNA文库。

单端测序 (Single-end):在构建DNA文库时,将测序引物连接在DNA片段的一端,然后在末端添加接头序列,在进行上机测序时只能从序列的一端开始进行测序。

双端测序 (Paired-end):在构建DNA文库时,在DNA片段的两端均连接测序引物和接头,在进行上机测序时可以分别从序列的两端进行测序,从而使得测序读长增加为原本的两倍左右。

测序深度:测序得到的总数据量与待测基因组大小的比值,假设待测基因组大小为100Mb,测序深度为30X,那么最终得到的数据量为3G。

Fastq格式:保存测序仪得到的核酸序列及其测序质量信息的标准格式,每条序列由4行文件组成,第一行由"@"开始,后面跟着序列的描述信息;第二行是序列的碱基排列顺序;第三行由"+"开始,后面也可以跟着序列的描述信息;第四行是与第二行序列相对应的各碱基质量评价结果。

质量得分:即Fastq格式第四行的信息,Q=-10log10(p),p为碱基错误概率,也就是Q=20时,碱基错误概率为0.01。

Q20 (%):碱基识别准确率在99%以上的碱基所占比例。
Q30 (%):碱基识别准确率在99.9%以上的碱基所占比例。
N (%):测序结果中模糊碱基所占的比例

质量控制:按照指定的标准对测序得到的序列进行筛选,去除不合格序列的过程。

Raw data:测序仪下机得到的原始数据。
Clean data:原始数据经过质量控制后,得到的可以用于后续分析的数据。


基因组de novo测序相关名词

基因组Survery:在正式进行基因组测序之前,需要先进行小规模的测序以评估目的基因组的大小、重复序列含量和复杂度,从而确定正式基因组测序的数据量以及测序和拼接策略,这种评估基因组基本信息的过程即是基因组Survery。

Read:高通量测序平台产生的序列即为Reads,每一条序列称为一条Read。

Contig:根据Reads间的重叠区域,使用拼接软件拼接得到的长序列称为Contig。

Scaffold:基因组测序过程中,通过Reads拼接得到Contigs之后,还需要依赖其它测序文库的支持,确定这些Contigs之间的顺序关系,确定顺序的Contigs构成的序列称为Scaffold。

Contig N50(90):将所有拼接得到的Contigs按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Contigs总长度的50% (90%) 时,最后一条Contig的长度,该指标用来评估基因组拼接的质量。

Scaffold N50(90):将所有拼接得到的Scaffold按照长度从长到短排列,将序列长度按照该顺序依次相加,当相加的长度达到所有Scaffolds总长度的50% (90%) 时,最后一条Scaffold的长度,该指标用于评估基因组拼接的质量。

基因家族:由一个共同的祖先基因经过重复和突变产生的、具有相似结构和功能的一组相关基因。


基因组重测序相关名词

SNP (Single Nucleotide Polymorphisms,单核苷酸多态性):在基因组上单个核苷酸的变异,一般指变异频率大于1%的单核苷酸变异包括置换、颠换、缺失和插入4种类型。

Indel:不同个体基因组间小片段的插入或缺失。

染色体结构变异 (SV):是染色体变异的一种,导致变异的原因可能是遗传因素,也可能是外部条件刺激,主要分为缺失、重复、倒位、易位等类型。

全基因组重测序:对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。由于已知该物种的基因组,因此个体的测序数据量无需基因组de novo测序那么大,同时该技术无需基因组拼接,只需与参考基因组比对,因此应用二代测序技术即可完成。

全基因组关联分析 (GWAS):选取具有不同表型特征的的多个同种生物个体,对每个个体分别进行全基因组重测序,与已有参考基因组进行比对后,检测全基因组范围内SNP、InDel与SV等变异类型,利用检测到的变异信息与关注的表型数据进行关联分析,找出与关注表型相关的SNP位点,定位复杂性状功能基因。

简化基因组测序 (Reduced-Representation Genome Sequencing,RRGS):根据目标物种的基因组信息和研究应用目的,通过生物信息学模拟,设计分子标记的开发方案,筛选特异性长度片段,构建简化的有全基因组代表性的测序文库,通过高通量测序进行分子标记的开发,进而应用于后续的科研或生产实践。

外显子测序:外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕获并富集后,进行高通量测序的基因组分析方法,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大优势,但无法研究基因组结构变异,如染色体断裂重复等。


细菌基因组相关名词

细菌基因组框架图:采用全基因组鸟枪法策略,构建小片段文库,使用第二代测序技术进行测序,最后拼接得到细菌的基因组,基因组中含有一定的gap,价格便宜,但是得到的细菌基因组只能满足常规基础研究的需要。

细菌基因组精细图:构建不同片段长度的测序文库,使用二代结合三代的测序技术进行测序,相比于框架图的测序,提高了测序深度,同时优化了基因组组装策略,虽然在拼接得到的基因组中依然含有gap,但是已经能够得到几乎完整的基因组,是进行细菌基因组研究应用最为广泛的测序策略。

细菌基因组完成图:在细菌基因组精细图的基础上,应用第一代测序技术填补精细图中存在的gap区域,同时对基因组的拼接进行验证,得到完全没有任何gap的完整细菌基因组。


高通量测序技术基础简介

  • 基因测序技术的发展历史

  • 基因测序技术的原理和应用

  • 高通量测序技术的研究相关概念

    • 基因组研究相关名词解释 (一)——常见概念

    • 基因组研究相关名词解释 (二)——易混概念辨析

    • 基因组研究相关名词解释 (三)——表观遗传学和泛基因组

    • 转录调控研究相关名词解释

    • 微生物群落谱研究相关名词解释

    • 宏组学研究相关名词解释


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存